1741930284684
DeepSeek系列论文发布时间线的图表。时间线分为三个阶段:
2024年1月至4月 ,发布了DeepSeek LLM、DeepSeek MoE、DeepSeek
Coder、DeepSeek Math和DeepSeek VL等论文。
2024年5月至8月,发布了DeepSeek-V2、DeepSeek-Coder-V2以及关于MoE的ALF负载均衡相关论文。
2024年12月至2025年1月,发布了DeepSeek-V3、DeepSeek-R1和DeepSeek-VL2等论文
。
1741930307926
1741930317102
1741930425145
这张图片介绍了DeepSeek LLM预训练的相关信息:
模型参数:有7B和67B两个版本。7B版本包含30层,模型维度4096,32个注意力头,kv头数32,上下文长度4096,序列批量大小2304,学习率4.2e-4,处理token数量2.0T
;67B版本有95层,模型维度8192,64个注意力头,kv头数8,上下文长度4096,序列批量大小4608,学习...
每日一言
Loading...
标签
- Cross-phenological-region
- English
- Foo
- GIS
- Image Processing
- LLM
- Mac Macos
- Ros机器人
- Self-Supervise
- Self-supervised learning
- Sequence Processing
- TypeScript
- classification
- cloud removal
- cloud_removal
- code
- crop classification
- debug
- diffusion
- docker
- git
- javascript
- k8s,Kubernetes
- markdown, md
- remote sensing
- vscode
- vscode插件开发
- 云操作系统
- 入学材料
- 图像处理
- 大模型
- 强化学习
- 数据库
- 早期分类
- 时间序列分类
- 机器学习
- 监督微调
- 研究生周报
- 群等不变性
- 自监督
- 表征学习
- 资料